本文提出了一种新颖的测试时间适应策略,该策略仅使用来自目标域的未标记的在线数据来调整在源域上预先训练的模型,以减轻由于源和目标域之间的分布变化而导致的性能降低。使用未标记的在线数据调整整个模型参数可能是有害的,这是由于无监督目标的错误信号。为了减轻此问题,我们提出了一个偏僻的权重正则化,该调整重量正规化鼓励在很大程度上更新模型参数对分布移位敏感的参数,同时在测试时间适应期间稍微更新那些对变化的不敏感的参数。这种正则化使该模型能够通过利用高学习率的好处来快速适应目标域而无需性能降低。此外,我们提出了一个基于最近的源原型来对齐源和目标特征的辅助任务,这有​​助于减少分布转移并导致进一步的性能提高。我们表明,我们的方法在各种标准基准方面展示了最先进的性能,甚至超过其监督的对手。
translated by 谷歌翻译
该技术报告描述了我们任务1A提交Dcase2021挑战的详细信息。该任务的目的是在模型复杂性的限制下设计一个音频场景分类系统,以针对设备平衡的数据集设计一个音频场景分类系统。该报告介绍了实现目标的四种方法。首先,我们提出了剩余的归一化,这是一种新型功能归一化方法,该方法将实例归一化与快捷路径使用实例归一化,以丢弃不必要的设备特定信息,而不会丢失有用的信息进行分类。其次,我们设计了一个高效的体系结构,BC-Resnet-Mod,这是基线体系结构的修改版本,具有有限的接收场。第三,我们利用光谱图到光谱图从一个设备转换为多个设备来增强训练数据。最后,我们利用三种模型压缩方案:修剪,量化和知识蒸馏来降低模型的复杂性。所提出的系统在Tau Urban声学场景2020 Mobile,具有315K参数的开发数据集中达到76.3%的平均测试准确性,压缩到61.0KB的非零参数后的平均测试准确性为75.3%。
translated by 谷歌翻译
关键字斑点(KWS)在启用智能设备上的基于语音的用户互动方面起着至关重要的作用,而常规KWS(C-KWS)方法集中在检测用户无关的预定关键字上。但是,实际上,大多数用户互动都来自该设备中注册的目标用户,这些用户激发了构建个性化关键字发现的设备。我们设计了两个个性化的KWS任务; (1)目标用户偏置KWS(TB-KWS)和(2)仅目标用户KWS(TO-KWS)。为了解决任务,我们通过多任务学习(PK-MTL)提出个性化关键字,该关键字可以通过多任务学习和任务适应为组成。首先,我们介绍对关键字发现和扬声器验证的多任务学习,以利用用户信息到关键字发现系统。接下来,我们设计特定于任务的评分功能,以彻底适应个性化的KWS任务。我们在常规和个性化场景上评估了框架,结果表明,PK-MTL可以大大降低错误警报率,尤其是在各种实际情况下。
translated by 谷歌翻译
验证系统的深度学习模型通常无法推广到新用户和新环境,即使他们学习了高度歧视的功能。为了解决这个问题,我们提出了一些射击域的概括框架,该框架学会了解决新用户和新域的分销转移。我们的框架由特定领域和域聚集网络组成,分别是特定和组合域的专家。通过使用这些网络,我们生成的发作是模仿新颖用户和新型域在训练阶段的存在,以最终产生更好的概括。为了节省内存,我们通过将相似域聚集在一起来减少特定于域特异性网络的数量。经过对人为生成的噪声域的广泛评估,我们可以明确显示我们框架的概括能力。此外,我们将提出的方法应用于标准基准的现有竞争体系结构,这显示了进一步的性能改进。
translated by 谷歌翻译
关键字发现是检测流音频中的关键字的任务。传统的关键字点斑点目标预定义的关键字分类,但是越来越多的关键字(逐示例)关键字点斑点,例如,N-Way分类给出了M-Shot支持样本。此外,在现实世界中,可能会有意外类别(开放设定)的话语需要被拒绝,而不是归类为N类之一。结合了两个需求,我们将几个开放式关键字点斑点与名为SplitGSC的新基准设置进行了处理。我们提出了基于公制学习的情节 - 已知的虚拟原型,以更好地检测开放式设定,并引入一种简单而强大的方法,虚拟原型网络(D-Protonets)。与最新的SplitGSC中的几个射击开放式识别(FSOSR)方法相比,我们的D-Protonets显示出明显的边缘。我们还可以在标准基准测试中验证我们的方法,微型果胶和D-Protonets显示了FSOSR中最新的开放式检测率。
translated by 谷歌翻译
在图像处理中使用二维卷积神经网络(2D-CNN)时,可以使用通道统计数据来操纵域信息,实例归一化是获得域不变特征的一种有希望的方法。但是,与图像处理不同,我们分析了音频功能中与域相关的信息在频率统计中占主导地位,而不是通道统计。通过我们的分析激励,我们引入了宽松的实例频率归一化(RFN):沿频率轴的插件,显式归一化模块,可以消除音频功能中特定实例的特定域差异,同时放松不良的有用歧视性损失信息。从经验上讲,与先前的声学场景分类中的域概括方法相比,仅将RFN添加到网络中显示出明显的边缘,并且可以提高多个音频设备的鲁棒性。尤其是,拟议的RFN赢得了DCASE2021挑战任务1a,具有多个设备的低复杂声音场景分类,并具有明显的利润,RFN是我们技术报告的扩展工作。
translated by 谷歌翻译
在最近的视觉自我监督作品中,通过将标签分配给变换或增强的输入图像来建立模仿分类目标,称为借口任务。借口的目标可以预测应用于图像的转换。然而,观察到,已经存在于数据集中的图像变换可能在学习这种自我监督的表示方面不太有效。在此观察中构建,我们提出了一种基于生成的对冲网络的框架,自动找到输入数据集中不存在的变换,从而有效地对自我监督学习有效。这种自动化策略允许估计数据集的转换分布,并且还构造其对借口任务进行采样的训练对的互补分布。我们使用多个可视识别数据集进行了评估我们的框架,以显示我们自动转换政策的效果。
translated by 谷歌翻译
这是一个实用的研究主题,如何通过具有高效设计的单个声学场景分类系统处理多设备音频输入。在这项工作中,我们提出了剩余归一化,一种新颖的特征归一化方法,它使用频率明智的归一化性能实例归一化与快捷路径丢弃不必要的设备特定信息,而不会失去用于分类的有用信息。此外,我们介绍了一个有效的体系结构,BC-Resnet-ASC,具有有限的接收字段的基线架构的修改版本。 BC-RESNet-ASC概率赢得基线架构,即使它包含少量参数。通过三种模型压缩方案:修剪,量化和知识蒸馏,我们可以进一步降低模型复杂性,同时减轻性能下降。该系统在TAU城市声学场景中实现了76.3%的平均测试精度2020移动,开发数据集,具有315K参数,压缩后的平均测试精度为75.3%,为61.0kb的非零参数。该方法在Dcase 2021挑战中赢得了第1位的任务1A。
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译
Blind image quality assessment (BIQA) remains challenging due to the diversity of distortion and image content variation, which complicate the distortion patterns crossing different scales and aggravate the difficulty of the regression problem for BIQA. However, existing BIQA methods often fail to consider multi-scale distortion patterns and image content, and little research has been done on learning strategies to make the regression model produce better performance. In this paper, we propose a simple yet effective Progressive Multi-Task Image Quality Assessment (PMT-IQA) model, which contains a multi-scale feature extraction module (MS) and a progressive multi-task learning module (PMT), to help the model learn complex distortion patterns and better optimize the regression issue to align with the law of human learning process from easy to hard. To verify the effectiveness of the proposed PMT-IQA model, we conduct experiments on four widely used public datasets, and the experimental results indicate that the performance of PMT-IQA is superior to the comparison approaches, and both MS and PMT modules improve the model's performance.
translated by 谷歌翻译